Исследование рынка игр

Данное ставит перед собой цели:

  • Исследовать закономерности среди наиболее успешных игр
  • Сравнивнить продажи среди разных платформ и жанров
  • Определить наиболее сильные признаки успешных видеоигр

Это поможет сделать ставку на потенциально популярных играх и спланировать рекламные компании.

Исследование базируется на исторических данных из открытых источников.

Структура данных:

Информация о продажах видеоигр хранится в файле games_data.csv:

  • Name — название видеоигры
  • Platform — платформа
  • Year_of_Release — год выпуска
  • Genre — жанр
  • NA_sales — продажи в Северной Америке (миллионы проданных копий)
  • EU_sales — продажи в Европе (миллионы проданных копий)
  • JP_sales — продажи в Японии (миллионы проданных копий)
  • Other_sales — продажи в других странах (миллионы проданных копий)
  • Critic_Score — оценка критиков (максимум 100)
  • User_Score — оценка пользователей (максимум 10)
  • Rating — возрастной рейтинг от организации ESRB

План:

Setup

In [1]:
executed in 2.13s
In [2]:
executed in 220ms

Предобработка данных

In [3]:
executed in 1.60s
Out[3]:
Name Platform Year_of_Release Genre NA_sales EU_sales JP_sales Other_sales Critic_Score User_Score Rating
0 Wii Sports Wii 2006.00 Sports 41.36 28.96 3.77 8.45 76.00 8 E
1 Super Mario Bros. NES 1985.00 Platform 29.08 3.58 6.81 0.77 NaN NaN NaN
2 Mario Kart Wii Wii 2008.00 Racing 15.68 12.76 3.79 3.29 82.00 8.3 E
3 Wii Sports Resort Wii 2009.00 Sports 15.61 10.93 3.28 2.95 80.00 8 E
4 Pokemon Red/Pokemon Blue GB 1996.00 Role-Playing 11.27 8.89 10.22 1.00 NaN NaN NaN
... ... ... ... ... ... ... ... ... ... ... ...
16710 Samurai Warriors: Sanada Maru PS3 2016.00 Action 0.00 0.00 0.01 0.00 NaN NaN NaN
16711 LMA Manager 2007 X360 2006.00 Sports 0.00 0.01 0.00 0.00 NaN NaN NaN
16712 Haitaka no Psychedelica PSV 2016.00 Adventure 0.00 0.00 0.01 0.00 NaN NaN NaN
16713 Spirits & Spells GBA 2003.00 Platform 0.01 0.00 0.00 0.00 NaN NaN NaN
16714 Winning Post 8 2016 PSV 2016.00 Simulation 0.00 0.00 0.01 0.00 NaN NaN NaN

16715 rows × 11 columns

В столбце User_Score встречается аббревиатура tbd - to be determined, будем считать ее как пропущенное значение.

In [4]:
executed in 11ms
In [5]:
executed in 14ms
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype   
---  ------             --------------  -----   
 0   name               16713 non-null  object  
 1   platform           16715 non-null  object  
 2   year_of_release    16446 non-null  float32 
 3   genre              16713 non-null  object  
 4   na_sales           16715 non-null  float32 
 5   eu_sales           16715 non-null  float32 
 6   jp_sales           16715 non-null  float32 
 7   other_sales        16715 non-null  float32 
 8   critic_score       8137 non-null   float32 
 9   user_score         7590 non-null   float32 
 10  rating             9949 non-null   object  
 11  decade_of_release  16446 non-null  category
 12  total_sales        16715 non-null  float32 
dtypes: category(1), float32(8), object(4)
memory usage: 4.6 MB
In [6]:
executed in 12ms
Out[6]:
missing values sum mean
name 2.00 0.00
platform 0.00 0.00
year_of_release 269.00 0.02
genre 2.00 0.00
na_sales 0.00 0.00
eu_sales 0.00 0.00
jp_sales 0.00 0.00
other_sales 0.00 0.00
critic_score 8578.00 0.51
user_score 9125.00 0.55
rating 6766.00 0.40
decade_of_release 269.00 0.02
total_sales 0.00 0.00

Посмотрим, откуда берутся пропуски в оценках критиков и игроков. Возможно, на раннем этапе развития видеоигр мало кто оставлял отзывы и оценки.

In [7]:
executed in 13ms
Out[7]:
mean_nan total_games
critic_score rating user_score
decade_of_release
1980s 0.99 0.99 0.99 205
1990s 0.95 0.94 0.95 1771
2000s 0.39 0.29 0.47 9193
2010s 0.56 0.41 0.53 5277

Видим, что в самом начале эры видеоигр почти не было оценок критиков и игроков, но и игр тогда было мало. Большая часть пропусков идет с последних двух десятилетий - доля игр без критики уменьшилась, но выросло общее количество игр. Не будем заполнять пропуски, так как их слишком много.

Посмотрим на наличие дубликатов.

In [8]:
executed in 9ms
Out[8]:
0

Проверим, есть ли неявные дубликаты в именах.

In [9]:
executed in 16ms
No implicit duplicates

Или неявные дубликаты по имени и платформе.

In [10]:
executed in 5ms
Out[10]:
5

Действительно что-то есть.

In [11]:
executed in 7ms
Out[11]:
name platform year_of_release genre na_sales eu_sales jp_sales other_sales critic_score user_score rating decade_of_release total_sales
1591 Need for Speed: Most Wanted X360 2005.00 Racing 1.00 0.13 0.02 0.10 83.00 8.50 T 2000s 1.25
4127 Sonic the Hedgehog PS3 NaN Platform 0.00 0.48 0.00 0.00 43.00 4.10 E10+ NaN 0.48
11715 Need for Speed: Most Wanted PC 2012.00 Racing 0.00 0.06 0.00 0.02 82.00 8.50 T 2010s 0.08
14244 NaN GEN 1993.00 NaN 0.00 0.00 0.03 0.00 NaN NaN NaN 1990s 0.03
16230 Madden NFL 13 PS3 2012.00 Sports 0.00 0.01 0.00 0.00 83.00 5.50 E 2010s 0.01

Вероятнее всего, это какие-нибудь ремейки.

In [12]:
executed in 7ms
Out[12]:
name platform year_of_release genre na_sales eu_sales jp_sales other_sales critic_score user_score rating decade_of_release total_sales
1190 Need for Speed: Most Wanted X360 2012.00 Racing 0.62 0.78 0.01 0.15 83.00 8.50 T 2010s 1.56
1591 Need for Speed: Most Wanted X360 2005.00 Racing 1.00 0.13 0.02 0.10 83.00 8.50 T 2000s 1.25
5972 Need for Speed: Most Wanted PC 2005.00 Racing 0.02 0.23 0.00 0.04 82.00 8.50 T 2000s 0.29
11715 Need for Speed: Most Wanted PC 2012.00 Racing 0.00 0.06 0.00 0.02 82.00 8.50 T 2010s 0.08

Вероятнее всего, так и есть, это ремейк 2012 года. Я удалю ремейки, так как они не являются новыми играми и их успешность смещена.

In [13]:
executed in 4ms
In [14]:
executed in 8ms
Out[14]:
name platform year_of_release genre na_sales eu_sales jp_sales other_sales critic_score user_score rating decade_of_release total_sales
604 Madden NFL 13 PS3 2012.00 Sports 2.11 0.22 0.00 0.23 83.00 5.50 E 2010s 2.56
16230 Madden NFL 13 PS3 2012.00 Sports 0.00 0.01 0.00 0.00 83.00 5.50 E 2010s 0.01
In [15]:
executed in 19ms
Out[15]:
name platform year_of_release genre na_sales eu_sales jp_sales other_sales critic_score user_score rating decade_of_release total_sales
1745 Sonic the Hedgehog PS3 2006.00 Platform 0.41 0.06 0.04 0.66 43.00 4.10 E10+ 2000s 1.17
4127 Sonic the Hedgehog PS3 NaN Platform 0.00 0.48 0.00 0.00 43.00 4.10 E10+ NaN 0.48
In [16]:
executed in 8ms
Out[16]:
name platform year_of_release genre na_sales eu_sales jp_sales other_sales critic_score user_score rating decade_of_release total_sales
659 NaN GEN 1993.00 NaN 1.78 0.53 0.00 0.08 NaN NaN NaN 1990s 2.39
14244 NaN GEN 1993.00 NaN 0.00 0.00 0.03 0.00 NaN NaN NaN 1990s 0.03

Однако с Madden NFL 13, Sonic the Hedgehog и с одной безымянной игрой дело обстоит иначе. Скорее всего, это записи одной и той же игры. Объединим строки с первыми двумя играми, а безымянную игру удалим.

In [17]:
executed in 4ms
In [18]:
executed in 14ms
Value counts by column
PS2    0.13
DS     0.13
PS3    0.08
Wii    0.08
X360   0.08
PSP    0.07
PS     0.07
PC     0.06
XB     0.05
GBA    0.05
GC     0.03
3DS    0.03
PSV    0.03
PS4    0.02
N64    0.02
XOne   0.01
SNES   0.01
SAT    0.01
WiiU   0.01
2600   0.01
NES    0.01
GB     0.01
DC     0.00
GEN    0.00
NG     0.00
SCD    0.00
WS     0.00
3DO    0.00
TG16   0.00
GG     0.00
PCFX   0.00
Name: platform, dtype: float64
In [19]:
executed in 7ms
Unique games: 11559
Out[19]:
Need for Speed: Most Wanted                    10
Ratatouille                                     9
LEGO Marvel Super Heroes                        9
FIFA 14                                         9
Madden NFL 07                                   9
LEGO The Hobbit                                 8
FIFA Soccer 13                                  8
Terraria                                        8
LEGO Harry Potter: Years 5-7                    8
Monopoly                                        8
Lego Batman 3: Beyond Gotham                    8
Cars                                            8
FIFA 15                                         8
Angry Birds Star Wars                           8
The LEGO Movie Videogame                        8
LEGO Star Wars II: The Original Trilogy         8
LEGO Jurassic World                             8
Madden NFL 08                                   8
FIFA 12                                         7
LEGO Indiana Jones: The Original Adventures     7
Name: name, dtype: int64

Абсолютным рекордсменом по количеству поддерживаемых платформ является Need for Speed: Most Wanted. Особой популярностью отделяются игры серии LEGO. Добавим столбец с количеством платформ у каждой игры. Однако не факт, что этот параметр будет доступен в момент прогнозирования продаж новых видеоигр.

In [20]:
executed in 11ms
In [21]:
executed in 4ms

Исследовательский анализ данных

В датасете отсутствует информация о цене игры, хотя я думаю, она немало влияет на продажи игры. Несмотря на то, что для прогнозирования продаж на следующие года не все информация будет актуальной, некоторые зависимости вполне могут не зависеть от времени и наблюдаться всегда.

In [22]:
executed in 16ms
Out[22]:
year_of_release na_sales eu_sales jp_sales other_sales critic_score user_score total_sales n_platforms
count 16441.00 16709.00 16709.00 16709.00 16709.00 8133.00 7586.00 16709.00 16709.00
mean 2006.49 0.26 0.15 0.08 0.05 68.97 7.13 0.53 2.12
std 5.88 0.81 0.50 0.31 0.19 13.94 1.50 1.55 1.58
min 1980.00 0.00 0.00 0.00 0.00 13.00 0.00 0.00 1.00
25% 2003.00 0.00 0.00 0.00 0.00 60.00 6.40 0.06 1.00
50% 2007.00 0.08 0.02 0.00 0.01 71.00 7.50 0.17 1.00
75% 2010.00 0.24 0.11 0.04 0.03 79.00 8.20 0.47 3.00
max 2016.00 41.36 28.96 10.22 10.57 98.00 9.70 82.54 10.00

Удалим выбивающиеся значения и переведем продажи из миллионов в тысячи.

In [23]:
executed in 7ms
Data deleted: < 4.33% (723/16709)
In [24]:
executed in 4ms
In [25]:
executed in 384ms
2013 – 2016
10
050100150200250300350WiiPSPWiiUX360PCXOne3DSPS3PS4PSV
Feature histogramscountplatformplatform

Самыми популярными платформами за все время являются DS, PS2 и Wii. В последние 3 года лидируют платформы серии PlayStation, 3DS и XOne.

Общие пропорции жанров со временем поменялась не сильно. Больше всего игр экшн, спортивных и ролевых игр, шутеров и приключений.

Больше всего игр без рейтинга. Потом по количеству за все время идут рейтинги E и T. В последние 3 года их обходит рейтинг M.

Игр с рейтингами AO, RP, K-A и EC - единицы. Не будем их учитывать. Также есть очень редкие платформы, мы уберем платформы с количеством игр меньше 100. Однако платформы с малым количеством игр могут быть просто новыми, и на них еще не успели выпустить игры. Тоже самое может быть с рейтингами. Проверим это.

In [26]:
executed in 6ms
In [27]:
executed in 9ms
Out[27]:
max_year_of_release
platform
3DO 1995.00
DC 2008.00
GB 2001.00
GEN 1994.00
GG 1992.00
NES 1994.00
NG 1996.00
PCFX 1996.00
SCD 1994.00
TG16 1995.00
WS 2001.00
In [28]:
executed in 8ms
Out[28]:
max_year_of_release
rating
AO 2005.00
EC 2011.00
K-A 1997.00
RP 2011.00

Как видим, последняя такая игра вышла в 2011 году, так что можно их удалять.

In [29]:
executed in 4ms
Data deleted: < 1.55% (247/15986)
In [30]:
executed in 3ms
In [31]:
executed in 112ms
2013 – 2016
0500100015002000250030000200400600
Feature histogramscounttotal_salestotal_sales

Больше всего игр вышло в 2008 и 2009 года, а потом произошел резкий спад. В 2015 вышло почти в 2.5 раза меньше игр, чем в 2008. Продажи имеют примерно экспоненциальные распределения. Распределения оценок критиков и игроков похожи на нормальные, но имеют отрицательную асимметрию.

In [32]:
executed in 2ms
In [33]:
executed in 66ms
2013 – 2016
1.00-0.15-0.13-0.09-0.130.090.04-0.16-0.11-0.151.000.710.030.850.30-0.020.920.24-0.130.711.000.080.850.320.030.880.31-0.090.030.081.000.070.080.220.25-0.21-0.130.850.850.071.000.300.010.920.270.090.300.320.080.301.000.520.330.140.04-0.020.030.220.010.521.000.03-0.19-0.160.920.880.250.920.330.031.000.24-0.110.240.31-0.210.270.14-0.190.241.00year_of_releasena_saleseu_salesjp_salesother_salescritic_scoreuser_scoretotal_salesn_platformsn_platformstotal_salesuser_scorecritic_scoreother_salesjp_saleseu_salesna_salesyear_of_release
−0.200.20.40.60.81Correlation matrix

Продажи относительно сильно скоррелированы между собой, за исключением продаж в Японии. Возможно, у пользователей в Японии предпочтения сильно отличаются от всего мира. Больше всего общие продажи скоррелированы с продажами в Северной Америке, вероятно, там наибольший рынок сбыта. С остальными признаками однако продажи коррелируют не сильно. Больше всего они коррелируют с оценкой критиков. Оценки критиков и пользователей тоже достаточно сильно скоррелированы. Последние 10 лет наблюдается повышенная корреляция продаж с количеством поддерживаемых платформ.

In [34]:
executed in 3ms
In [35]:
executed in 74ms
2013 – 2016
North America41.9%European Union33.4%Japan14.3%Others10.4%
Total sales by region

Действительно, в Северной Америке самые большие продажи.

In [36]:
executed in 5ms
In [37]:
executed in 4ms
In [38]:
executed in 116ms
2013 – 2016
02468050010001500200025003000
Feature scatterplotsuser_scoretotal_salesx axis:y axis:user_scoretotal_sales
In [39]:
executed in 3ms
In [40]:
executed in 106ms
2013 – 2016
0246805001000150020002500300020406080100050010001500200025003000
Sales by scoresUser ScoreCritics Scoretotal_sales

Видим, как похожи графики зависимости продаж от оценки критиков и пользователей.

Диаграмма рассеяния - хороший график, однако он не всегда хорошо отображает структуру данных. Например, график year_of_release - jp_sales не дает понять, какая между признаками зависимость. Более мощным инструментом является диаграмма рассения по корзинам. Чем меньше корзин, тем меньше вариативность (bias-variance tradeoff) и больше ошибка (условно MSE). 1 корзина - просто среднее по всем наблюдениям. Количество корзин = количество наблюдений - обычная диаграмма рассеяния.

In [41]:
executed in 5ms
In [42]:
executed in 345ms
2013 – 2016
10
123456789−200020040060080010001200
Feature binned scatterplotsuser_scoretotal_sales

Видим, что со временем продажи в Северной Америке и Японии снизились, тем самым снизились и общие продажи. Однако немного выросли другие продажи. Последние 10 лет общие продажи примерно одинаковы.

Также наблюдаем снижение оценки видеоигр самими пользователями с 2000 года. Оценка критиков же, наоборот, растет с 2007. Обе оценки положительно влияют на средние общие продажи. Только оценка критика начинает влиять на продажи только когда становится выше ~50. Последние 3 года оценка пользователей выше 4 не сильно влияет на продажи.

Видим, что мультиплатформенные игры начали выпускаться начиная примерно с 2000, а большинство из них 2008-2010 года. Это говорит о том, что мультиплатформенность появилась относительно недавно. Удивительно, что чем больше поддерживаемых платформ, тем меньше оценка пользователей, но тем больше средние продажи. Посмотрим на продажи по платформам.

Распределения продаж похожи на нормальные, так что я сглажу точки нормальными распределениями.

In [43]:
executed in 3ms
In [44]:
executed in 6ms
In [45]:
executed in 178ms
1995 – 2016
5
19952000200520102015020k40k60k80k100k120k
platformDSDSPSPSPS2PS2PS3PS3X360X360Platforms salesTotal salesYear
In [46]:
executed in 3ms
In [47]:
executed in 37ms
20102011201220132014201520162017020k40k60k80k100k
platform3DSPS3PS4X360XOnePlatforms sales from 2010sYearTotal sales
In [48]:
executed in 3ms
In [49]:
executed in 58ms
   95% interval: 2003.59 +- 5.29

Как видим, продажи по годам достаточно хорошо описываются нормальными распределениями. Сами платформы в среднем живут от 6 до 10 лет, а пик продаваемости приходится на 3-5 год. Также из графиков видно, что большинство платформ уже отжили свое, а из новых только PS4 и XOne. Также у платформы DS наблюдается странный выброс - игра 1985 года, хотя игры на DS выходили преимущественно уже после 2000-х.

In [50]:
executed in 13ms
Out[50]:
name platform year_of_release genre na_sales eu_sales jp_sales other_sales critic_score user_score rating decade_of_release total_sales n_platforms
14985 Strongest Tokyo University Shogi DS DS 1985.00 Action 0.00 0.00 20.00 0.00 NaN NaN No rating 1980s 20.00 1

Удалим его.

In [51]:
executed in 3ms
In [52]:
executed in 6ms
In [53]:
executed in 119ms
2013 – 2016
10
PS4PS3XOneX3603DSWiiUPCPSVWiiPSP050010001500200025003000
Feature boxplotsplatformtotal_salesx axis:y axis:platformtotal_sales

Среди самых продаваемых платформ за все время (platforms = 10) у PS3 и X360 общие продажи имеют большее среднее, чем у остальных платформ. Потом идут PS, PS2 и Wii. В последние 3 года высокие продажи имеют также PS4 и XOne. Самые высокую медианну по продажам имеют платформы 2600, SNES и N64, однако у них не так много игр (меньше общие продажи). Хуже всего продаются игры на PC. Однако, как ни странно, там самая высокая средняя оценка критиков. Возможно, это связано с тем, что у большинства людей игровые консоли, а не ПК. Высоко критиками также оценены Wii и XOne. Пользователи в последние 3 года же выше оценивают PSV, DS, 3DS, PS4 и PS3.

Среди жанров по продажам лидируют шутеры, за ними платформеры и спортивные игры. Хуже всего продаются приключения, стратегии и пазлы. Но там, как ни странно, самая высокая оценка пользователей, а у шутеров и спортивных игр низкая. Можно сделать вывод, что люди не очень любят думать и больше любят то, что в реальной жизни они никогда не сделают.

Чем выше количество платформ, тем выше средние продажи.

У игр с рейтингом M и E10+ чуть выше продажи.

Разберем подробнее каждый регион.

In [54]:
executed in 3ms
In [55]:
executed in 78ms
2013 – 2016
X36019.7%XOne19.5%Wii15.1%WiiU12.7%PS410.3%PS38.7%DS5.07%3DS4.07%PC3.82%PSV1%PSP0%
Feature pie chart
In [56]:
executed in 3ms
In [57]:
executed in 248ms
2013 – 2016
X36025.5%XOne25.2%Wii19.6%WiiU16.4%PS413.3%Wii26.8%PS420%XOne18.9%X36017.6%WiiU16.7%3DS30.9%PS319.1%WiiU18.5%PSV16.2%PSP15.3%
Sales by platformNorth AmericaEuropean UnionJapan
In [58]:
executed in 3ms
In [59]:
executed in 198ms
2013 – 2016
X36025.5%XOne25.2%Wii19.6%WiiU16.4%PS413.3%Shooter29.3%Sports24.6%Platform22.4%Fighting12.7%Misc11.1%M31.1%E10+24.6%E24.4%T14.2%No rating5.53%
North America sales byPlatformGenreRating

North America:

  • В последние 3-5 лет в основном популярны XOne, X360, Wii и PS4. У X360 большие медианные продажи, но относительно невысокие совокупные. Это значит, что игры на X360 еще хорошо продаются (не многие, возможно, успели перейти на более новые консоли), но игр стали производить меньше на эту платформу.

  • Предпочтения жанров такие же, как и общие. Популярны шутеры, платформеры, спортивные игры, файтеры и гонки. Cтратегии, пазлы, приключения и ролевые игры практически не пользуются спросом. Опять же самая высокая медианна у жанра шутер, но там не самые высокие совокупные продажи. Просто игр этого жанра делают меньше.

  • Последние 3 года у рейтингов М и E10+ выше медианные продажи, а у Т и E меньше. Однако за весь период у них примерно одинаковые продажи. У игр без рейтинга невысокие продажи.

European Union:

  • Медианные продажи выше у Wii, DS, X360 и XOne. Потом с небольшим отрывом идут PS3 и PS4. В принципе, это ожидаемо, так как выше мы видели, что среди платформ почти все платформы уже канули в небытие, продажи растут только у PS4 и XOne.

  • Жанровые предпочтения в Европе такие же как в Северной Америке.

  • Так же высоко оцениваются игры с рейтингом М. Игры с рейтингом E10+ тоже имеют медианные продажи выше, чем у рейтингов Т и Е. Такая тенденция прослеживается всегда.

Japan:

  • Вот у японцев что-то интересное. Несмотря на падение общих продаж, в Японии последние 10 лет все равно лидируют игры на PSV, 3DS, PSP и PS3. В Xbox они вообще не играют.

  • Японцы предпочитают ролевые игры, файтинг, пазлы и стратегии. Они почти не играют в шутеры и гонки.

  • Высокие средние и общие продажи у игр без рейтинга. Игры с рейтингом Т имеют тоже продажи выше, чем игры с рейтингом M. Игры с рейтингом Е10+ менее популярны в Японии.

В целом европейцы и жители Северной Америки схожи в предпочтениях. Они играют на современных настольных консолях в шутеры, гонки и платформеры. Предпочитают игры с рейтингом M или E10+. Японцы же играют в портативные консоли (PSP, PSV, 3DS), и играют в основном в ролевые игры, файтинг и стратегии. Для них предпочтительнее игры без рейтинга и рейтинг T.

Тестирование гипотез

Средние пользовательские рейтинги платформ Xbox One и PC одинаковые

Нулевая гипотеза: Средние рейтинги платформ XOne и PC одинаковые.

Альтернативная гипотеза: Средние рейтинги отличаются.

In [60]:
executed in 5ms
In [61]:
executed in 114ms
2013 – 2016
2345678900.050.10.150.20.250.3
PCXOneUser scores for PC and XOneUser scoreProbability density
P-value: 0.1129

P-значение недостаточно мало, чтобы сказать, что разность в средних статистически значима и отвергнуть нулевую гипотезу. Я хочу посчитать p-значение вручную.

In [62]:
executed in 7ms
Out[62]:
0.11277691852268079

Не знаю, откуда эта неточность.

Средние пользовательские рейтинги жанров Action и Sports разные.

Нулевая гипотеза: Средние рейтинги жанров Action и Sports одинаковые.

Альтернативная гипотеза: Средние рейтинги отличаются.

In [63]:
executed in 3ms
In [64]:
executed in 98ms
2013 – 2016
1234567800.050.10.150.20.250.30.350.4
SportsActionUser scores for Action and Sports genresUser scoreProbability density
P-value: 0.0

P-значение очень мало, так что можно отвергнуть нулевую гипотезу и принять альтернативную. Значит, разность между средними рейтингами игр жанра action и sport статистически значима.

In [65]:
executed in 8ms
Out[65]:
0.0

Важность признаков

Проблема проведенного выше анализа в том, что он не дает понять, какой признак является наиболее сильным. И оценки критиков и игроков, и платформа, и жанр, и рейтинг влияют на количество проданных копий. Но что влияет больше? Для того чтобы измерить важность признаков, мы обучим какую-нибудь модель, а потом посмотрим, какие признаки больше всего помогли ей в предсказании продаж. Для этого я использовал библиотеку градиентного бустинга от Яндекса - Catboost. Сначала рассмотрим весь промежуток времени.

In [66]:
executed in 3ms
In [67]:
executed in 19ms

Чем лучше модель предсказывает продажи, тем более надежны выданные ею важности признаков. Чтобы посмотреть на среднее качество модели, я проведу кросс-валидацию. То есть разобью генеральную совокупность на выборки, и на этих выборках обучу и оценю качество модели. Потом уже обучу финальную модель.

In [68]:
executed in 2ms
In [69]:
executed in 5m 32s
17s 163ms
curr
best
2863
2363
learn
test
375.4096608
433.9543877
433.431675
1m 11s
curr
best
4762
4262
learn
test
341.7081224
474.3195167
473.8880281
20s 155ms
curr
best
3283
2783
learn
test
362.7425087
449.9363492
449.6439373
23s 641ms
curr
best
3092
2592
learn
test
364.0674742
467.9579698
467.0788416
23s 685ms
curr
best
3123
2623
learn
test
366.0687298
460.7532914
460.2726696
26s 457ms
curr
best
3270
2770
learn
test
363.7891235
454.4622071
454.0787564
25s 242ms
curr
best
2946
2446
learn
test
369.1591971
454.7180967
454.3409966
49s 722ms
curr
best
3514
3014
learn
test
353.9867465
472.3576639
472.1485421
42s 400ms
curr
best
4084
3584
learn
test
350.7818627
468.0661091
467.9935729
26s 822ms
curr
best
2720
2220
learn
test
373.8540963
460.7973894
460.6984267
MultiRMSE
010002000300040005000350400450500550600650700

График выше показывает среднюю квадратичную ошибку в зависимости от количества решающих деревьев в модели для 3 моделей, обученных на разных выборках. Чем ниже ошибка, тем лучше. Как видим, качество модели немало зависит от разделения на обучающую и тестовую выборку.

In [70]:
executed in 7.32s
6s 908ms
curr
best
2248
1748
learn
test
381.0865867
471.0712571
470.4213525
MultiRMSE
010002000300040005000400450500550
In [71]:
executed in 24ms
Out[71]:
na_sales eu_sales jp_sales other_sales total_sales total_sales_separate
0 3.61 18.33 65.91 6.51 94.37 94.37
1 600.27 384.65 0.00 106.49 1089.86 1089.86
2 138.15 64.94 33.14 45.59 281.81 281.81
3 0.00 70.00 0.00 0.00 10.28 10.28
4 41.40 11.58 16.72 2.33 72.03 72.03
In [72]:
executed in 9ms
In [73]:
executed in 4ms
R2 MAE MAE_scaled
na_sales 0.3331 132.0390 0.4677
eu_sales 0.2661 75.7016 0.4921
jp_sales 0.2374 45.7346 0.4168
other_sales 0.3402 22.6964 0.4141
total_sales 0.3163 231.0799 0.5115
total_sales_separate 0.3163 231.0799 0.5115

Модель на примерно на 30% лучше простого среднего, а ее предсказания в среднем ошибаются на половину стандартного отклонения. По качеству предсказаний нет разницы между предсказывать total_sales сразу или сначала na_sales, ..., other_sales, а потом их суммировать.

In [74]:
executed in 37ms
Out[74]:
Feature Id Importances
0 critic_score 23.11
1 platform 20.94
2 year_of_release 13.87
3 n_platforms 12.53
4 genre 12.06
5 user_score 10.10
6 rating 7.38

Данные значения важности показывают, как сильно изменятся предсказания, если изменится признак. Catboost использует свой алгоритм подсчета важностей признаков, который достаточно плохо интерпретируется. Поэтому я посмотрю еще на важности признаков при простом перемешивании значений признака.

In [75]:
executed in 3.31s
Out[75]:
importances_mean importances_std
critic_score 0.29 0.01
platform 0.16 0.01
n_platforms 0.12 0.01
year_of_release 0.08 0.01
user_score 0.07 0.00
genre 0.06 0.01
rating 0.04 0.01

Оба метода показывают, что самыми важными признаками являются оценка критиков и платформа игры. Меньше всего важны рейтинг и оценка пользователей (как ни странно). Возможно, оценка пользователей коррелирует с оценкой критиков (0.59), и поэтому мало важна для модели. Посмотрим на shap-значения. Грубо говоря, shap-значения показывают, какой признак сколько внес в итоговое предсказание, так что чем больше абсолютное shap-значение, тем лучше.

In [76]:
executed in 3.59s
In [77]:
executed in 4ms
In [78]:
executed in 305ms
2022-07-23T00:41:06.687720 image/svg+xml Matplotlib v3.5.2, https://matplotlib.org/

CatBoost переводит категориальные признаки в хеши, и их числовые значения не имеют значения, поэтому категориальные признаки на графике окрашены в серый. Видим, что чем больше оценка критиков, тем выше shap-значения. Чем меньше количество поддерживаемых платформ, тем меньше shap-значения.

In [79]:
executed in 197ms
2022-07-23T00:41:06.907960 image/svg+xml Matplotlib v3.5.2, https://matplotlib.org/

Из графиков мы видим примерно то же самое, что видели из диаграм рассеяния и боксплотов. Видно, что PC преимущественно влияет негативно на продажи, а платформы PS2/3/4, Wii и X360/XOne - положительно. Шутеры, платформеры и файтинги увеличивают shap-значения, приключения, стратегии и пазлы уменьшают. Также shap-значения повышают симуляторы. Рейтинги E10+ и T понижают продажи, а M и Е повышают. Так же как было видно на диаграмме рассеяния, оценка критиков начинает влиять только после ~60. Однако, это показатели за все время. Наша задача предсказать продажи в следующих годах. Какой промежуток времени для анализа выбрать? Из графиков наверху (повторил внизу) мы видели, что платформы живут ~10 лет, а на текущий момент почти все крупные платформы уходят с рынка, потому что появились новые платформы PS4 и XOne. То есть сейчас идет начало цикла. Для того, чтобы предсказать, что будет в середине цикла, надо взять уже прошедший цикл и посмотреть на нем важность признаков. Я выберу цикл с 2005 года, когда появились X360, DS, Wii, PS3, PSP, по текущий момент, когда все эти платформы уже изжили себя.

In [80]:
executed in 266ms
2000 – 2016
5
2000200520102015020k40k60k80k100k120k
platformDSDSPS2PS2PS3PS3WiiWiiX360X360Platforms salesTotal salesYear
In [81]:
executed in 7ms
In [82]:
executed in 23ms
2005 – 2016
5s 333ms
curr
best
2252
1752
learn
test
319.704832
417.0562712
416.7723476
MultiRMSE
010002000300040005000350400450500
METRICS
R2 MAE MAE_scaled
na_sales 0.4054 109.5435 0.4340
eu_sales 0.3309 73.1666 0.4633
jp_sales 0.1887 37.5203 0.4269
other_sales 0.3927 24.0336 0.4052
total_sales 0.3945 200.5407 0.4693
MODEL FEATURE IMPORTANCES
Feature Id Importances
0 critic_score 22.9834
1 platform 21.3314
2 n_platforms 12.4497
3 user_score 12.4135
4 genre 12.0646
5 year_of_release 9.5284
6 rating 9.2290
PERMUTATION IMPORTANCE
importances_mean importances_std
critic_score 0.4384 0.0155
platform 0.1736 0.0089
n_platforms 0.1254 0.0091
user_score 0.0961 0.0091
genre 0.0711 0.0073
rating 0.0673 0.0057
year_of_release 0.0590 0.0048

Для последних 15 лет результаты предсказания немного лучше для Северной Америки и Европы, но хуже для Японии. Важными признаками остались оценка критиков и платформа. Важным стал жанр игры. Также количество поддерживаемых платформ стало больше значить. Рейтинг и оценка пользователей остались маловажными признаками, и перестал быть важным год выпуска (что вполне логично для периода в 15 лет).

Если обучить модель на данных последних 3 лет, то получим примерно такие же результаты, что значит, что важность оценок критиков и платформы мало зависят от времени и почти всегда являются одними из главных признаков.

Итог

Наболее сильными признаками являются оценка критиков и платформа игры. За ними идут количество поддерживаемых платформ и жанр. Год выпуска, рейтинг и оценка пользователей мало влияют на продажи (продажи зависят от оценки пользователей, но оценка критиков лучше моделирует продажи, а оценка пользователей практически не превносит никакой новой информации).

За все время:

  • Оценка критиков начинает сильно положительно влиять на продажи только когда выше ~60.
  • Самыми продаваемыми платформами являются PS2/3/4, X360/XOne и Wii. Хуже всего продаются компьютерные игры. Платформы в среднем живут 6-10 лет и пик продаж наступает на 3-5 год.
  • Общие продажи снизились с 1980 года и последние 10 лет примерно одинаковы (относительно всего периода).
  • Чем выше количество поддерживаемых платформ, тем больше продажи.
  • Лучше всего продаются шутеры, платформеры и гонки, хуже всего - приключения, стратегии и пазлы.
  • Чем выше оценка пользователей, тем выше продажи.
  • Игры с рейтингом M продаются чуть лучше.

За последние 5 лет:

  • За последние 5 лет виден спад в продажах видеоигр.
  • Почти все крупные платформы уже отжили свое, продажи растут только у новых консолей PS4 и XOne.
  • Платформеры и гонки стали чуть хуже продаваться.

По регионам:

Население Европы и Северной Америки имеют схожие вкусы. Они играют на современных настольных консолях в шутеры, гонки и платформеры. Предпочитают игры с рейтингом M или E10+. Японцы же играют в портативные консоли (PSP, PSV, 3DS), и играют в основном в ролевые игры, файтинг и стратегии. Для них предпочтительнее игры без рейтинга и игры с рейтингом T.

Гипотезы:

  • Не смогли отвергнуть нулевую гипотезу о том, что средние рейтинги платформ XOne и PC одинаковые.
  • Показали, что вероятность, что средние пользовательские рейтинги жанров Action и Sports одинаковые - крайне мала. Мы принимаем альтернативную гипотезу о том, что средние рейтинги отличаются.